Le jeu de données est constitué de 569 entrées. Chacune de ces entrées correspond à une personne atteinte d’un cancer du sein chez qui une biopsie de la tumeur a été effectuée. Les noyaux des cellules tumorales on ensuite été analysé et les données recueillies sont présentées dans le tableau ci-dessous. Pour chaque variable, on a la moyenne (mean), l’erreur standard (SE) et la “pire”" valeur (worst, c’est-à-dire la moyenne des trois plus grandes valeurs de la variable).
Les 10 variables mesurées sur les noyaux des cellules sont :
Chaque échantillon a un identifiant et un diagnostic associé à la tumeur (maligne, M ; ou bénin, B). Il y a 357 tumeurs bénignes (62.74 %) et 212 (37.26 %) tumeurs malignes.
Le tableau suivant résume quelques paramètres statistiques pour chaque variables :
La densité de répartition des valeurs de chaque variables est rapportée dans les graphiques suivants.
On voit que pour certaines variables comme le périmètre ou le nombre de points concaves, on a une distribution bimodale.
Graphique 1 : répartition des moyennes pour chaque variable
Graphique 2 : répartition des erreurs standard pour chaque variable
Graphique 3 : répartition des pires valeurs pour chaque variable
Pour savoir quelles sont les variables corrélées entre elles, on trace un diagrammes de corrélation :
C’est une variable catégorielle binaire qui renseigne sur le diagnostic associé à l’échantillon. Elle prend soit la valeur “B” pour désigner une tumeur bénigne, soit la valeur “M” pour une tumeur maligne.
Ainsi, on voit que deux tiers des tumeurs sont bénignes.
Trois variables numériques continues renseignent sur la taille du noyau des cellules : le rayon (radius), le périmètre (perimeter) et l’aire (area). Elles sont corrélées entre elles et liées par des relations mathématiques.
L’aspect du noyau est rapporté par deux variables numériques continues : la compacité et la texture. Comme pour la taille du noyau, les valeurs pour les tumeurs malignes sont plus élevées que pour les bénignes.
La compacité est calculée par la formule suivante : \(\frac{perimeter^2}{area} - 1\)
La texture du noyau est calculée à partie de l’écart-type des valeurs des échelles de gris.
Cinq variables numériques continues ont été mesurées pour rendre compte de la forme du noyau. On voit que la différence entre les cellules malignes et bénignes est la plus marquée pour les variables concavity et concave points. Les cellules tumorales malignes ont donc un noyau avec des contours plus concaves par rapport aux cellules bénignes. La dimension fractale par contre n’est pas différente entre les deux types de cellules.
La dimension fractale est une variable numérique continue. Elle renseigne sur l’irrégularité des contours du noyau des cellules.
La figure ci dessous montre les coefficients de corrélation entre le diagnostic et les autres variables.
Pour sélectionner les variables pertinentes, nous avons choisi de ne garder que celles qui sont corrélées à plus de 50% avec le diagnostic. Comme le périmètre, l’aire et le rayon sont liés entre eux, nous n’avons gardé que le périmètre, qui est la variable la plus corrélée des trois avec le diagnostic. On obtient alors 9 variables pertinentes qui sont, de la plus corrélée à la moins corrélée : concave_points_worst, perimeter_worst, concave_points_mean, perimeter_mean, concavity_mean, concavity_worst, compactness_mean, compactness_worst, perimeter_se.
Le graphique ci dessous montre le nuage de point obtenu quand on croise les deux variables les plus corrélées :
La deuxième étape de notre analyse consistera à utiliser des algorithmes de clustering pour identifier des groupes au sein des données.
Nous utiliserons trois algorithmes de clustering :
Nous avons vu lors de l’étape de description du jeu de données qu’une répartition bimodale pouvait apparaître avec certaines variables, suggérant l’existence de deux groupes. Nous verrons donc lors de cette étape de clustering si les algorithmes utilisés arriveront à constituer deux groupes distincts et homogènes.
Avant de pouvoir utiliser les algorithmes de clustering, on doit d’abord standardiser les données à l’aide de la fonction scale.
Le premier algorithme utilise la méthode des k-moyennes.
| n | % |
|---|---|
| 380 | 66.8 |
| 189 | 33.2 |
Le tableau suivant résume les performances de l’algorithme en utilisant les sommes inter-clusters et intra-clusters des carrés des distances entre les données.
| Somme intra-cluster | Somme totale | Somme totale intra-cluster | Somme inter-cluster |
|---|---|---|---|
| Cluster 1 : 5249.95 Cluster 2 : 6325.14 |
17040 | 11575.08 | 5464.92 |
Les résultats d’un clustering hiérarchique sont visualisables avec un dendrogramme.
| n | % |
|---|---|
| 213 | 37.4 |
| 356 | 62.6 |
Le troisième algorithme de clustering que nous avons choisi est l’algorithme d’espérance-maximisation sur un modèle de mélange gaussien. C’est un algorithme de soft-clustering donc chaque individu a une probabilité d’appartenir à l’un ou l’autre des clusters, ce qui est particulièrement approprié dans le contexte d’une décision médicale lorsqu’il s’agit de poser un diagnostic.
=> Les deux autres algorithmes utilisés précédemment sont des algorithmes de hard-clustering c’est-à-dire que chaque individu est assigné à un cluster de façon binaire. On ne sait pas avec quelle certitude l’assignation est faite.
| n | % |
|---|---|
| 242 | 42.5 |
| 327 | 57.5 |
##
## 1 2
## B 54 303
## M 188 24
En résumé, les trois algorithmes de clustering identifient bien les deux clusters.
Pour évaluer la cohérence des clusters, nous avons utilisé le coefficient de silhouette et sa représentation graphique. La ligne rouge en pointillé représente le score moyen.
## cluster size ave.sil.width
## 1 1 380 0.44
## 2 2 189 0.15
## cluster size ave.sil.width
## 1 1 213 0.09
## 2 2 356 0.43
## cluster size ave.sil.width
## 1 1 242 0.00
## 2 2 327 0.47
On remarque qu’à chaque fois, c’est le plus grand des clusters qui obtient les scores silhouette les plus élevés et qu’ils sont quasiment tous positifs. En revanche, le cluster le plus petit est moins cohérent, avec des scores qui sont presque tous en dessous de la moyenne pour les trois algorithmes.
En dernière partie de notre analyse, on utilisera des algorithmes de classification pour prédire la classe diagnostique. Mais pour appliquer ces algorithmes, on doit d’abord diviser le jeu de données en deux parties :
Les trois algorithmes utilisé sont :
Le premier algorithme de classification est l’arbre de décision. Cet algorithme a l’avantage d’être intuitif et d’expliciter les variables utilisées pour classifier les données.
On retrouve ici les variables perimeter_worst ou radius_worst et concave_points_worst comme critères de décision, ce qui est cohérent avec ce qu’on avait trouvé plus haut lors de la recherche des variables pertinentes. En effet, ces deux variables sont celles qui sont les plus corrélées au diagnostic.
Néanmoins cette relation n’a pas été observée avec texture_worst, dont le coefficient de corrélation avec diagnosis n’est que le 46 %.
Etant donné que nous devons prédire une variable binaire dans le cadre d’une analyse multivariée, nous avons choisi d’utiliser un algorithme de régression logistique.
L’algorithme de random forest est la méthode ensembliste que nous avons choisi.
Pour comparer les performances des différents algorithmes, on avons utilisé le package caret pour produire des matrices de confusion et différents indicateurs de qualité des modèles qui sont la sensibilité, la specificité et les valeurs prédictives positives et négative.
Après plusieurs essais, random forest est l’algorithme qui obtient les meilleures performances, alors que la régression logistique obtient les pires.